【glossary】トークン(Token)
トークン(Token) とはテキストデータを小さな部分に分割したものです。例えばChat GPTではトーケンを用いてテキストを学習・生成します。
GPTモデル(ChatGPTはGPTモデルを応用しています) とは英語や日本語などの自然言語の文章を理解し応答を生成するための人工知能(AI)です。これらのGPTモデルがテキストを理解するためには、まずそのテキストをトーケンと呼ばれる単位に分割します。
トーケンとは、モデルが理解する最小の単位です。英語の場合、単語や句読点(例「This」、「is」、「a」、「pen」、「,」など)のことです。
さらに一般的な大規模なトランスフォーマモデルではより効率的に処理を行うため「サブワード分割」が使用されます。これは長い単語(救急救命士)をより小さな部分(サブワード)に分割する手法(「救急」「救命」「士」)で未学習の単語や特殊な表現や多少の誤りのある表現に対しても柔軟に解析することが可能となります。
これらのトーケンの集合はモデルがテキストを理解し応答を生成するための「入力」です。モデルはこれらのトーケンを一つずつ処理し各トーケンが文書全体で何を意味するかを理解します。その後モデル側で新しいトーケンを生成します。
例えば、「Is、this、a、pen?」という文章を入力したとします。GPTはこれを「Is」「This」「a」「pen」「>」というトーケンに分割します。その後、モデルはこれらのトーケンを順に処理し、各トーケンが持つ意味とそれが文章の中でどのように組み合わされているのかを解析します。その後それを基にして新しいトーケンを生成します。
例えば「yes it is 」や「No it is a pencil」などです。